Visualizando um espectro estelar.
O primeiro passo é obter o arquivo do espectro. Baixe-o daqui: https://drive.google.com/open?id=12MCvaypCE7jyvRy6ohN93cYvSoXVRsjE
em seguida voce deve ler o arquivo. Para tanto, use a função loadtxt do numpy. Para ajuda com estta função veja: https://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt.html
Com os dados carregados, agora voce pode visualizá-los. Para tanto utilize a função plot: https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.plot.html
O que voce observa neste gráfico? O que se pode dizer sobre os dados? Veja a escala dos eixos? O que isso lhe diz?
Como voce pode melhorar sua visualização? Tente alterar a escala usando os parametros da função plot. Voce consegue visualizar mais informações?
Ainda é possível melhorar mais?
Nesta atividade vamos explorar um conjunto de dados usando o pacote pandas: https://pandas.pydata.org/
O data frame em pandas:
Pandas DataFrame é uma estrutura de dados tabulares bidimensionais, mutáveis e potencialmente heterogêneos, com eixos rotulados (linhas e colunas). Um quadro de dados é uma estrutura de dados bidimensional, ou seja, os dados são alinhados de maneira tabular em linhas e colunas. Pandas DataFrame consiste em três componentes principais, os dados, linhas e colunas.
Nesta atividade usaremos data frames e as funcionalidades do Pandas para analisar o conjunto de dados Iris: https://archive.ics.uci.edu/ml/datasets/iris
O arquivo para ser lido como data frame está aqui: https://drive.google.com/open?id=1S6RHV3l-xPSHdsBc1sOu60_nwPUQucEw
Vamos ler então o arquivo
In [1]:
# importing pandas package
import pandas as pd
# making data frame from csv file
data = pd.read_csv("iris.csv")
In [2]:
data.head()
Out[2]:
In [3]:
data.dtypes
Out[3]:
In [4]:
data.columns
Out[4]:
In [5]:
# descrevendo os dados
data.describe()
Out[5]:
In [6]:
data['sepal.length']
Out[6]:
In [7]:
data.mean()
Out[7]:
In [8]:
data.plot()
Out[8]:
In [9]:
data.hist()
Out[9]:
In [10]:
from pandas.plotting import scatter_matrix
scatter_matrix(data, alpha=0.2, diagonal='kde', figsize=(10, 10))
Out[10]:
vamo susar agora uma biblioteca especifica para visualização estatística de dados a Seaborn:
In [11]:
# Seaborn: Biblioteca de Visualização de Dados Estatísticos do Python
import seaborn as sns
import matplotlib.pyplot as plt
sns.pairplot(data)
Out[11]:
In [12]:
sns.pairplot(data, hue="variety")
Out[12]:
In [13]:
sns.heatmap(data.corr(),annot=True)
Out[13]:
In [14]:
fig = sns.FacetGrid(data,hue='variety')
fig.map(plt.scatter,'sepal.length','sepal.width').add_legend()
Out[14]:
Podemos fazer um plot mostrando as propriedades de algumas colunas de dados. Um tipo muito útil de gráfico é o boxplot ou diagrama de caixa: https://pt.wikipedia.org/wiki/Diagrama_de_caixa
In [15]:
plt.figure(figsize=(12,10))
plt.subplot(2,2,1)
sns.boxplot(x='variety',y='sepal.length',data=data)
plt.subplot(2,2,2)
sns.boxplot(x='variety',y='sepal.width',data=data)
Out[15]:
Vamos investigar dados do aglomerado aberto Pleiades obtidos com o satelite GAIA. O objetivo aqui é identificar as propriedades do aglomerado que permitam separa-lo das estrelas de campo. Sabemos que movimentos pŕoprios e paralaxes são bons indicadores.
O arquivo se encontra em: https://drive.google.com/file/d/1bU5hqfKWzwjvJLSLFKLhCUn1EdSkUpNL/view?usp=sharing
dicas:
In [ ]: